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: [目的 /意义 ] 通 过 研究 科学 数据 集 的 知识 扩散 特征 和 规律 ,探究 其 在 学 科 发 展 过 程 中 的 实际 作用 ,为 科学 数据 集 


科技 评价 及 管理 政策 制定 提供 参考 。 [ 方法 /过程 ] 尺 GEO 数据 库 的 数据 集 和 PubMed Central 数据 库 中 重用 数据 
集 的 全 文 数据 为 分 析 对 象 , 采 用 内 容 分 析 法 结合 扩散 广度 、 扩 散 强度 、 扩 散 速度 等 知识 扩散 指标 对 科学 数据 集 的 
知识 扩散 特征 进行 探析 。| 结果 /结论 ] 研 究 结 果 表 明 ,科学 数据 集 的 知识 扩散 广度 和 知识 扩散 强度 日 益 加 大 , 重 


司 : 科学 数据 集 知识 扩散 “特征 探析 
: G250 


测度 指标 


AR 


用 数据 可 以 加 快 知识 扩散 速度 ,我 国 在 全 球 科学 数据 领域 的 地 位 不 断 提高 。 


1~z5| 言 


科学 数据 是 科研 活动 过 程 中 产生 或 再 加 工 得 到 的 
数 搁 资料 ,主要 类 型 包括 实验 数据 .观测 数据 和 统计 数 
据 等 。 其 中 ,任意 单位 的 数据 都 可 以 称 为 科学 数据 ,而 
源 了 特定 研究 目的 创建 收集 和 整理 的 相关 科学 数据 
集 涛 或 产品 则 构成 科学 数据 集 。 随 着 数据 驱动 研究 范 
式 在 各 个 学 科 领 域 的 广泛 普及 ,科学 数据 集 逐 渐 成 为 
贯 塞 科 研 过 程 的 重要 研究 对 象 和 产 出 结果 ,这 些 通过 
实验 或 观测 得 到 的 数据 资料 不 但 加 快 了 科研 进程 ,其 
含有 的 知识 价值 也 在 数据 集 共享 和 重用 的 过 程 中 得 到 
了 更 广泛 的 传播 .继承 和 创新 ,实现 了 知识 扩散 。 知 识 
扩散 指 知识 通过 一 定 的 载体 进行 的 跨 时 空 流动 过 程 ， 
通过 这 种 知识 的 吸收 和 重组 ,促进 了 新 知识 的 产生 和 
科学 的 创新 发 展 。 探 索 分 析 科学 数据 集 的 知识 扩散 
情况 ,对 拓展 知识 扩散 研究 范围 深层 次 了 解 科学 数据 
集 的 学 术 价 值 .推进 数据 引用 规范 化 .促进 数据 共享 和 
重用 等 都 具有 极其 重要 的 现实 意义 。 

1924 年 ,卡耐基 基金 会 的 W，S，Leamed 在 《美国 
公共 图 书馆 与 知识 扩散 》 一 书 中 首次 对 知识 扩散 进行 
了 研究 2 。 目 前 ,国内 外 学 者 围绕 知识 扩散 开展 的 研 


究 主 要 可 以 分 为 三 类 :中 知识 扩散 单元 研究 ,基于 各 类 
知识 扩散 单元 (论文 .专利 作者 .期刊 . 学 科 等 ) 开 展 
的 知识 扩散 特征 和 规律 的 研究 。 黄 鲁 成 等 ”提出 了 一 
个 基于 专利 全 引用 信息 的 技术 知识 扩散 特征 研究 框 
架 ,通过 利用 专利 引用 关系 ,可 以 从 技术 知识 的 利用 和 
传播 两 个 角度 探索 技术 知识 扩散 特征 。 赵 蓉 英 等 “ 通 
过 构建 作者 知识 扩散 网 络 ,发 现 作 者 知识 扩散 过 程 与 
规律 ,并 对 作者 知识 扩散 贡献 程度 进行 了 评定 。 绩 增 
慧 等 ”以 社会 网 络 学 科 为 研究 对 象 , 探讨 了 学 科 知 识 
扩散 的 特征 。 王 静 静 等 ”通过 探析 国际 数字 人 文 研究 
中 的 跨 学 科 知 识 扩散 趋势 ,发 现 图 书 情 报 等 初始 相关 
学 科 的 核心 度 正在 下 降 , 而 艺术 与 人 文 工程 学 等 在 学 
科研 究 中 的 地 位 渐 趋 重要 。@ 知 识 扩 散 指 标 研 究 , 通 
过 计量 或 网 络 指标 开展 知识 扩散 的 测度 研究 。Y. X. 
Liu 等 ”基于 ESI 学 科 分 类 , 提出 了 学 科 知 识 扩散 广 
度 .强度 和 速度 等 指标 。 俞 立 平等 “参照 h 指数 的 计 
算 方 法 提出 了 用 于 反映 学 术 期 刊 知识 扩散 深度 的 CJH 
指标 。H. Nakamura 等 ”提出 利用 施 引 文献 发 表 时 间 
与 被 引文 献 发 表 时 间 之 间 的 差 值 作为 知识 扩散 延 时 指 
标 。 宋 歌 “ 利用 扩散 理论 .社会 网 络 分 析 和 引文 分 析 
方法 ,从 知识 网 络 结构 特征 角度 提出 了 创新 扩散 广度 、 
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速度 强度 及 延 时 等 测度 指标 。@ 知 识 扩散 模型 研究 ， 
通过 各 类 模型 开展 知识 的 扩散 和 演化 过 程 研 究 。I. 
Z，Kiss 等 ， 参考 传染 病 模 型 提出 一 种 基于 个 体 的 有 
向 加 权 知 识 扩散 模型 ,该 模型 可 以 用 于 描述 研究 主题 
在 不 同学 科 之 间 的 扩散 过 程 。X，Gao 等 "综合 网 络 
分 析 ` 引 文 分 析 和 可 视 化 的 方法 ,提出 一 种 基于 引文 的 
时 序 网 络 知识 扩散 模型 ,该 模型 综合 了 社会 网 络 分 析 、 
网 络 可 视 化 ,引文 分 析 的 方法 ,可 以 从 网 络 结构 视角 揭 
示 知 识 扩散 的 过 程 。 

从 上 述 研究 可 以 看 出 ,当前 知识 扩散 研究 大 多 以 
论文 .专利 ,作者 等 载体 为 主 ,以 引用 、 共 现 等 关系 构建 
网 络 , 通 过 计量 或 网 络 分 析 方 法 来 研究 知识 扩散 的 特 
征 和 规律 。 昌 然 近 几 年 出 现 了 以 图 书 " .软件 5 、 基 
爹 凶 等 为 知识 单元 的 知识 扩散 研究 ,但 还 少 有 研究 围 
绕 科学 数据 集 这 一 科研 成 果 进 行 知识 扩散 特征 分 析 ， 
究 英 原因 主要 有 两 点 :一 是 当前 缺乏 统一 的 数据 引用 
栋 浴 规范 ,科学 数据 集 在 论文 中 常 以 提 及 等 非 规范 引 
用 形式 出 现 , 科 学 数据 集 的 引用 情况 难以 追溯 和 统 
让 。 研 究 发 现 数据 引文 索引 (Data Citation Index， 
DG 收录 的 科学 数据 集 存在 很 大 比例 的 零 被 引 现象， 
数据 集 知识 扩散 广度 和 深度 也 十 分 有 限 " ,这些 问题 
纵 二 于 引用 关系 的 科学 数据 集 相 关 研 究 造成 了 极 大 的 
误 凑 和 困难 ;二 是 当前 科学 数据 集 引用 的 研究 仍然 以 
抽样 调查 和 人 工 内 容 分 析 方法 为 主 “ -2 ,研究 的 文献 
粹 时 和 范围 十 分 有 限 ,研究 层次 也 未 深入 到 科学 数据 
集 前 元 数据 信息 ,难以 归纳 总 结 出 宏观 层面 的 特征 规 
律 z 死 法 应 用 于 知识 扩散 方面 的 研究 。 

(本 研究 将 以 生物 医学 领域 的 基因 表达 数据 集 作为 
研究 对 象 ,利用 数据 集 的 元 数据 获取 作者 、 机 构 及 数据 
集 公开 日 等 信息 ,运用 内 容 分 析 法 识别 重用 数据 集 的 
文献 信息 ,建立 科学 数据 集 和 文献 间 的 引证 关系 ,并 利 
用 知识 扩散 相关 测度 指标 探析 科学 数据 集 在 学 术 交 流 
体系 中 的 扩散 特征 。 本 研究 的 意义 在 于 :一 方面 ,将 科 
学 数据 引入 知识 扩散 研究 领域 ,拓展 并 丰富 知识 扩散 


已 


理论 及 方法 研究 , 座 化 对 科学 数据 知识 扩散 过 程 的 认 
识 和 理解 ;为 一 方面 , 丰 宦 并 扩充 了 科研 评价 的 内 容 和 
应 用 领域 ,为 科学 数据 管理 和 服务 提供 全 新 视角 的 参 
考 ,也 可 为 后 续 人 研究 提供 新 的 思路 。 


2 研究 方法 


2.1 基本 思路 

本 人 研究 涉及 的 科学 数据 集 数据 来 自 基因 表达 综合 
数据 库 ( Gene Expression Omnibus, GEO ) ,该 数据 库 是 
由 美国 国家 生物 技术 信息 中 心 ( National Center for Bio- 
technology Information ,NCBI) 创建 并 维护 的 全 球 性 高 通 
量 分 子 丰 度数 据 库 ” ,同时 也 是 当前 全 球 存储 规模 最 
大 数据 最 全 面 的 基因 表达 数据 库 ,收录 了 世界 各 国人 研 
究 者 提交 并 共享 的 基因 芯片 数据 和 高 通 量 测序 数据 。 
GEO 数据 库 将 用 户 或 科研 人 员 递 呈 和 共享 的 数据 进 
行 分 类 存储 并 为 其 分 配 一 个 唯一 且 永 恒 不 变 的 登录 号 
(Accession Number) ,并 要 求 共享 数据 的 研究 文献 在 公 
开发 表 后 ,将 数据 进行 公开 便于 其 他 科研 人 员 利 用 该 
数据 进行 后 续 人 研究 。 本 研究 将 首先 获取 CEO 数据 库 
数据 集 的 元 数据 信息 ,对 数据 集 进行 多 视角 的 计量 分 
析 和 变化 趋势 分 析 。 

科学 数据 集 知 识 扩散 特征 研究 主要 基于 数据 重用 
关系 ,数据 重用 也 被 称 为 数据 复 用 或 数据 二 次 分 析 , 相 
关 人 研究 开始 于 20 世纪 90 年 代 , 主要 指 为 了 重 现 研究 
结果 或 新 的 研究 目的 而 将 以 往 原始 数据 集 或 再 组 合 的 
数据 集 进 行 再 分 析 的 过 程 ”。 本 研究 通过 PubMed 
Central(PMC ) 获取 生物 医学 领域 的 科学 文献 全 文 数据 ， 
PMC 是 NCBI 提供 的 免费 生物 医学 期 刊 文献 全 文 数据 
库 ”。 本 文 将 利用 规则 抽取 登录 号 的 方式 ,在 全 文中 识 
别 并 获取 数据 集 的 使 用 信息 ,并 将 发 表 时 间 晚 于 数据 集 
公开 时 间 的 文献 定义 为 重用 数据 集 的 文献 ,从 而 获得 重 
用 数据 集 的 文献 信息 。 最 终 利用 数据 集 、 重 用 数据 集 的 
文献 及 二 者 间 建 立 的 引证 关系 ,进行 科学 数据 集 知识 扩 
散 特 征 的 分 析 和 研究。 整体 研究 思路 如 图 1 所 示 : 


扩散 强度 


二 


疏 误 入 汗 灿 普 注油 过 
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2.2 数据 获取 

GEO 的 原始 数据 分 为 平台 (platform) 、 样 本 (sam- 
ple) 和 系列 (series) ,它们 被 分 别 保存 在 三 种 独立 但 具 
备 关 联 性 的 实体 数据 库 中 。 其 中 ,平台 包含 芯片 或 测 
序 平台 的 描述 信息 和 注释 信息 ,通常 包含 多 个 提交 者 
提交 的 样本 ;样本 用 于 记录 单个 样本 的 基因 表达 测量 
数据 信息 ,是 原始 实验 结果 的 基本 单位 ;系列 是 由 多 个 
样本 组 成 的 具有 生物 学 意义 的 数据 集 。 此 外 ,GEO 数 
据 库 根据 原始 数据 的 观测 角度 ,分 别 从 “实验 ”和 “ 基 
因 ” 的 角度 将 原始 数据 分 类 整理 并 放置 在 数据 集 
( Datasets) 和 表达 图 谱 ( Profiles) 两 个 数据 库 中 ,本 文通 
过 GEO 数据 库 检 索 并 获取 了 以 上 3 类 原始 数据 的 全 
部 数据 集 信息 。 

此 外 ,本 文通 过 PMC 提供 的 FTP 服务 批量 下 载 了 
209T 年 5 月 25 日 前 的 文件 包 , 将 索引 文件 合并 后 获取 
到 亢 献 的 基本 信息 及 本 地 文件 位 置 ,并 利用 Python 对 
PMC 全 文 数据 进行 了 解析 处 理 , 最 终 , 共 获取 到 
3 @19 908 篇 全 文 文献 。 科 学 数据 集 的 使 用 识别 采用 基 
拟 模 式 匹 配 的 方法 ,通过 正则 表达 式 在 全 文 文本 中 进行 
抽取 。3 种 原始 数据 的 数量 .主要 元 数据 信息 .抽取 正则 
表达 式 规则 等 科学 数据 集 的 基本 信息 如 表 1 所 示 : 

表 1 GEO 科学 数据 集 基 本 信息 


元 数据 数量 /个 “抽取 规则 

平 各 公开 有 日、 标题、 技术 类 型 、 物 种、 联系 23 965 GPL\d + 
人 、 国 家 … 

样本 公开 日 .标题 \ 样 本 类 型 平台、 联系 4716270 GSM\d+ 
人 、 国 家 … 

系列 。 公开 日 标题 物种、 贡献 者 .原文 信 158 368 GSE\d+ 


对 抽取 结果 进行 分 析 后 发 现 ,部 分 文献 还 存在 如 
“GSFE4357 - GSE4380” 或 “GSE4357 to GSE4380” 等 形 
式 的 数据 集 批量 使 用 行为 ,需要 单独 构建 批量 抽取 规 
则 ,并 设置 最 大 抽取 靖 值 为 500 ,超出 靖 值 范围 的 不 进 
行 抽取 ,从 而 提取 出 批量 使 用 的 数据 集 登 录 号 。 本 人 研 
究 将 发 表 日 期 在 数据 集 公 开 日 期 之 后 的 文献 定义 为 重 
用 文献 ,经 过 识别 抽取 后 发 现 ,共有 39 189 篇 文献 重 
用 了 GEO 数据库 中 数据 集 ,数据 集 总 量 为 57 841 个 ， 
重用 频次 合计 294 517 次 ,存在 GEO 数据 集 重 用 行为 
的 文献 数量 占 全 部 文献 数量 的 1.22% 。 

2.3 ”科学 数据 集 知识 扩散 测度 指标 

结合 以 往 人 研究 在 其 他 知识 扩散 单元 的 指标 定义 ， 
结合 科学 数据 集 自身 的 特点 ,本 人 研究 提出 了 数据 知识 
扩散 广度 .数据 知识 扩散 强度 ,数据 知识 扩散 速度 及 数 
据 知 识 扩散 延 时 4 个 测度 指标 : 


(1) 数 据 知 识 扩散 广度 (Data Knowledge Diffusion 
Breadth ,DKDB ) ,该 指标 从 覆盖 范围 视角 对 数据 知识 
扩散 情况 进行 分 析 , 即 重用 数据 集 的 论文 数量 越 多 , 则 
数据 知识 扩散 广度 越 大 ,数据 集 的 知识 接收 者 越 多 。 
2002 年 ,I Rowlands ”最早 提出 了 知识 扩散 广度 的 测 
度 指标 。 随 后 ,T. F，Frandsen ” 、 印 均 平 ”等 对 知识 
扩散 广度 等 测度 指标 进行 了 修正 和 扩展 。 本 文 参考 前 
人 研究 提出 数据 知识 扩散 广度 指标 DKDB ,其 计算 公 
式 如 公式 (1) 所 示 : 

DKDB = N/Y,, A 

其 中 ,w, 表示 统计 年 度 中 重用 该 年 公开 数据 集 的 
论文 数 ,7,, 表 示 数 据 集 年 岭 。 由 于 知识 扩散 是 一 个 动 


态 累 积 过 程 , 本文 还 对 数据 累积 知识 扩散 广度 (DK- 
DB” ) 进行 了 考察 ,其 计算 公式 如 公式 (2) 所 示 : 
> | 
DKDB™ = : 公 2 
FN 人 (2) 


其 中 ,1 <i<n,N, 表示 重用 第 i 年 公开 数据 集 的 
论文 数 ,n 为 总 统计 年 数 。 利 用 这 两 个 指标 可 以 反映 
出 数据 知识 扩散 广度 在 不 同年 份 以 及 逐年 累积 的 发 展 
变化 趋势 。 

(2) 数据 知识 扩散 强度 (Data Knowledge Diffusion 
Intensity,DKDI) ,该 指标 从 重用 频次 视角 对 数据 知识 
扩散 情况 进行 分 析 , 即 重用 数据 集 的 次 数 越 多 , 则 数据 
知识 扩散 强度 越 大 ,数据 集 对 知识 接收 者 的 影响 越 大 。 
与 数据 扩散 广度 测度 方法 类 似 ,本 文 将 从 数据 知识 扩 
散 强 度 指标 DKDI 和 数据 累积 知识 扩散 强度 DKDJ" 两 
个 角度 ,对 数据 扩散 强度 情况 进行 考察 和 分 析 。 其 计 
算 方 法 如 公式 (3) 和 公式 (4) 所 示 : 

DKDI = NA 公式 (3) 

其 中 ,N, 表示 统计 年 度 中 该 年 公开 数据 集 被 论文 
重用 的 总 频次 ,Y,,, 表 示 数 据 集 年 龄 。 同 样 ,本 文 也 对 
数据 累积 知识 扩散 强度 (DKDI" ) 进行 了 考察 ,其 计算 
方法 如 公式 (4) 所 示 : 


公式 (4) 

其 中 ,1<j<n,N; 表示 重用 第 7 年 公开 数据 集 的 总 
频次 ,n 为 总 统计 年 数 。 利 用 这 两 个 指标 可 以 反映 出 
数据 知识 扩散 强度 在 不 同年 份 以 及 逐年 累积 的 发 展 变 
化 趋势 。 

(3) 数 据 知 识 扩 散 速 度 (Data Knowledge Diffusion 
Speed,DKDS ) ,该 指标 从 单位 时 间 里 传播 距离 的 角度 
对 知识 扩散 情况 进行 分 析 。2005 年 ,R. Rousseau 提出 
“平均 扩散 速度 ”指标 , 指 的 是 一 篇 论文 发 表 后 ,引用 


DKDI* = 
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该 论文 的 期 刊 数量 与 论文 年 龄 的 比值 ,此 后 该 指标 也 
一 直 在 被 扩展 和 完善 ”。 本 文 参考 该 指标 ,提出 数据 
知识 扩散 速度 指标 , 指 的 是 一 个 数据 集 公开 后 ,刊载 了 
重用 该 数据 集 论文 的 期 刊 数量 与 数据 集 年 龄 的 比值 ， 
其 计算 方法 如 公式 (5) 所 示 : 

DKDS, = 公式 (5) 

其 中 ,DKDS, 为 某 一 年 公开 数据 集 的 平均 数据 知 
识 扩散 速度 , 忆 表示 所 有 刊载 了 重用 该 年 公开 数据 集 
论文 的 期 刊 数量 ,站 ,表示 数据 集 年 龄 ,m 为 该 年 度 公 
开 的 数据 集 数量 。 

(4) 数据 知识 扩散 延 时 (Data Knowledge Diffusion 
Delay , DKDD) ,该 指标 参考 反映 论文 知识 扩散 速度 的 
“引文 滞后 指标“ , 即 数据 集 被 第 一 次 重用 的 时 间 与 
数据 集 公 开 时 间 的 时 间 差 ,从 效率 的 角度 揭示 数据 集 
的 著 散 速度 ,其 计算 方法 如 公式 (6) 所 示 ， 


其 中 , 7, 表示 第 一 次 重用 该 数据 集 的 论文 发 表 年 
份 ,7 表示 该 数据 集 的 公开 年 份 。 


3 结果 与 分 析 


3.1 科学 数据 集 基本 信息 

GEO 数据 库 中 被 重用 的 数据 集 公开 时 间 分 布 于 
2000 -2021 年 ,期 间 共 有 57 841 个 数据 得 到 重用 ,总 
被 重用 频次 294 517 次 ,平均 被 重用 频次 5.092 次 。 论 
文 方面 ,存在 GEO 数据 集 重用 行为 的 文献 发 表 时 间 分 
布 于 2004 - 2021 年 ,论文 数量 合计 为 39 189 篇 ,平均 
每 篇 文章 重用 数据 集 1.476 个 ,这 些 论文 发 表 在 1 337 
本 期 刊 上 。 其 中 ,最 时 的 重用 记录 可 以 追溯 到 2004 年 
M. V. Osier 等 的 研究 ” ,该 研究 使 用 了 GEO 数据 的 4 
个 数据 集 GPL205 .GPL218 、GPL229 和 GPL356 ,用 于 测 
试 其 提出 的 微 阵列 数据 分 析 方 案 的 可 行 性 。 具 体 的 年 
度 分 布 及 重用 情况 如 表 2 及 图 2 所 示 : 


DKDD =7 -7, 公式 (6) 
表 2 GEO 数据 集 公开 年 度 分 布 及 重用 情况 

荐 度 数据 集 论文 数 频次 期 刊 数 年 度 数据 集 论文 数 频次 期 刊 数 
D9000 12 70 512 6 2011 5 269 3 338 29 050 362 
2001 84 166 1 251 26 2012 5 988 3 029 26 345 402 
2002 203 073 3 548 52 2013 5 970 3 244 28 022 389 
会 2003 280 1 375 4 721 54 2014 4 698 3 100 23 838 413 
中 2004 723 539 3 314 107 2015 4 735 3 011 23 209 417 
2005 1 .272 1 034 8 088 137 2016 4 506 2 453 17 418 414 
S 2006 1 604 1 367 10 952 178 2017 4 381 2 452 16 752 405 
只 007 2 230 1 674 14 452 216 2018 3 073 1 913 11 252 382 
2008 2 412 2 056 16 423 254 2019 2 452 1 486 7 322 352 
, 2009 2 686 2 242 19 346 270 2020 1 201 850 2 822 225 
2010 3 687 3 039 25 734 323 2021 103 78 146 53 

8 000 


一 @ 一 数据 集 数量 。 一 在 一 重用 数据 集 的 文献 数量 


贡 
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年 从 


图 2 数据 集 及 重用 数据 集 的 文献 数量 年 度 分 布 


由 于 生物 医学 领域 从 实验 到 论文 发 表 存在 一 定 清 
后 性 ,因此 目前 被 重用 较 多 的 数据 集 主 要 发 布 于 2008 


-2017 年 间 ,这 与 科研 范式 的 转变 及 学 科 信 息 学 等 数 


据 驱动 型 学 科 的 兴起 密切 相关 。 对 数据 集 的 重用 论文 
篇 数 分 别 统计 并 排序 后 发 现 ,重用 篇 数 为 1 的 数据 集 
为 43 217 个 , 占 总 数 的 74.72% 。 而 被 重用 最 多 的 数 
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据 集 是 出 自 美国 著名 生物 芯片 公司 Affymetrix 的 商业 
数据 集 CPL570 ,共有 1 634 篇 论文 重用 了 该 数据 集 。 
如 以 数据 集 被 重用 次 数 为 X 轴 , 数 据 集 数量 为 Y 轴 ， 
可 以 得 到 图 3 的 二 者 关系 图 。 从 图 3 可 以 较为 明显 地 
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局 从 国家 和 地 区 角度 来 看 ,共有 53 419 个 数据 集 标 
梁 细 贡献 者 的 国籍 ,其 中 美国 以 27 187 个 数据 集 的 发 


图 4 


术语 排名 第 一 ， 中 国 以 3 976 个 数据 集 的 发 布 量 排名 
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(在 这 些 数据 集中 , 较 早出 现 的 是 美国 在 2000 年 和 
2001 年 发 布 的 16 个 数据 集 。 在 2002 年 以 后 ,发 布 数 
据 集 并 获得 重用 的 国家 逐渐 增多 。 而 我 国 最 早 发 布 并 
获得 重用 的 数据 集 出 现在 2005 年 ,是 由 香港 中 文大 学 
发 布 的 香菇 基因 表达 谱 数据 ” 。 随 着 我 国 科 学 数据 
共享 政策 的 不 断 出 台 , 科 研 人 员 提 升 数据 共享 的 意识 
也 在 不 断 提升 ,我 国共 享 的 数据 占 比 在 不 断 加 大 ,从 
2005 年 只 占 1.35% 到 近 几 年 已 经 超过 1/3 的 比例 。 
3.2 ”数据 知识 扩散 广度 

数据 知识 扩散 广度 从 扩散 范围 角度 对 知识 扩散 情 
况 进 行 考 察 , 即 重用 数据 集 的 论文 年 度 分 布 及 变化 趋 
势 。 对 GEO 数据 集 的 数据 知识 扩散 广度 进行 测算 , 结 
果 如 表 3 所 示 。2000 年 数据 知识 扩散 广度 仅 为 3. 182 ， 
而 后 逐年 增加 ,2019 年 达到 峰值 495. 333 ,年 平均 扩散 
广度 为 233. 534。 

本 文 将 计算 出 的 DKDB 取 1 000 为 底 的 对 数 作 
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看 出 ,数据 集 重 用 次 数 与 数据 集 数 量 之 间 满 足 峰 律 分 
布 (R =0. 99 ) , 绝 大 部 分 数据 集 只 得 到 了 人 少量 重用 ， 
而 少数 数据 集 则 得 到 了 大 量 重用 。 


y=24 284x-1 
R2=0.9 947 
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图 3 数据 集 数 量 与 其 被 重用 次 数 的 关系 


第 二 ,其 他 发 布 数据 集 较 多 的 国家 还 包括 德国 .日 本 、 


英国 和 澳大利亚 等 。 数 据 发 布 量 在 前 十 位 国家 的 年 度 
发 布 数量 占 比 变 化 如 图 4 所 示 : 
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数据 发 布 量 排名 前 10 国家 的 年 度 发 布 数量 占 比 变 化 


为 当年 数据 知识 扩散 指标 ,同时 对 当年 数据 知识 扩 
散 与 数据 累积 知识 扩散 指标 的 结果 进行 比较 和 分 
析 , 见 图 5。 可 以 看 出 ,在 2000 -2019 年 间 的 当年 数 
据 知识 扩散 广度 保持 着 波动 增长 的 态势 ,其 后 开始 
有 所 回落 。 数 据 累计 知识 扩散 广度 呈现 S 曲线 形态 ， 
说 明科 学 数据 集 逐 渐 在 学 科 内 产生 影响 力 并 持续 受 
到 关注 ,推动 着 生物 医学 领域 的 知识 融合 与 创新 发 
展 ,但 由 于 数据 集 公 开 和 重用 具有 一 定 的 沾 后 性 , 近 
几 年 公开 的 数据 集 的 数据 知识 扩散 广度 增长 趋势 有 
所 减缓。 
3.3 ”数据 知识 扩散 强度 

传统 知识 扩散 强度 主要 考察 的 是 某 学 科 的 知识 单 
元 对 其 他 学 科 的 影响 程度 ,由 于 本 文 研 究 的 数据 集 和 
重用 论文 都 集中 于 生物 医学 领域 ,因此 本 文 提出 的 数 
据 知识 扩散 强度 主要 从 重用 频次 角度 对 知识 扩散 情况 
进行 考察 , 即 重 用 数据 集 次 数 的 年 度 分 布 及 变化 趋势 。 


80 


1V 呈 了 上 后 
狼 据 集 为 例 []]. 图 书 情报 工作 ,2022 ci 82 =91]; 


杨 宁 , 张志强 .科学 数据 集 知 识 扩 以 基因 表达 雪 
表 3 GEO 数据 集 的 数据 知识 扩散 广度 
年 度 Ni DKDB DKDB* ”LogioooDKDB | 年度 Ni DKDB DKDB* IJogloooDKDB 
2000 70 3. 182 0. 002 0. 168 2011 3 338 303. 455 0.448 0. 827 
2001 166 7.905 0. 006 0. 299 2012 3 029 302. 900 0.526 0. 827 
2002 673 33. 650 0. 023 0.509 2013 3 244 360. 444 0. 608 0. 852 
2003 1 375 72.368 0. 058 0. 620 2014 3 100 387. 500 0.688 0. 863 
2004 539 29. 944 0. 072 0.492 2015 3 011 430. 143 0.764 0. 878 
2005 1 034 60. 824 0. 098 0.595 2016 2 453 408. 833 0. 827 0. 871 
2006 1 367 85.438 0. 133 0. 644 2017 2 452 490. 400 0. 890 0. 897 
2007 1 674 111.600 0. 176 0. 683 2018 1 913 478.250 0.938 0. 893 
2008 2 056 146. 857 0. 228 0.722 2019 1 486 495.333 0.976 0. 898 
2009 2 242 172. 462 0. 286 0.746 2020 850 425. 000 0.998 0. 876 
2010 3 039 253.250 0. 363 0. 801 2021 78 78. 000 1.000 0. 631 
1.200 
一 全 一 Logl1000DKDB (当年 数据 知识 扩散 广度 ) 一 @ 一 DKDB* (数据 累积 知识 扩散 广度 ) 
1.000 
1 0.800 
膏 0.600 
-SS 
用 
也 ”0.400 
涨 
0.200 
0.000 


6 S > 
A EN 


年 份 


5 GEO 数据 集 的 数据 知识 扩散 广度 趋势 


对 GE0 数据 集 的 数据 知识 扩散 强度 进行 测算 ,结果 见 
表 坝 与 数据 知识 扩散 广度 攻势 关 做 9 (扩散 强 


度 由 2000 年 的 23. 273 开始 逐年 增加 ,到 2017 年 达到 
3 350.400 后 逐渐 回落 ,年 平均 扩散 强度 为 1 607.756。 


表 4 GEO 数据 集 的 数据 知识 扩散 强度 


年 度 Nij 


DKDI DKDI* Log1i000DKDI 年 度 Ni DKDI DKDI* Logi000 DKDI 
3000 512 23.273 0. 002 0. 456 2011 29 050 2 640. 909 0.466 1. 141 
2001 1251 59.571 0. 006 0.592 2012 26 345 2 634. 500 0.556 1. 140 
“2002 3 548 177. 400 0.018 0.750 2013 28 022 3 113. 556 0.651 1.164 
2003 4 721 248.474 0. 034 0.798 2014 23 838 2 979.750 0.732 1. 158 
2004 3 314 184. 111 0. 045 0.755 2015 23 209 3 315.571 0.811 1. 174 
2005 8 088 475.765 0. 073 0. 892 2016 17 418 2 903. 000 0. 870 1. 154 
2006 10 952 684. 500 0. 110 0. 945 2017 16 752 3 350. 400 0. 927 1. 175 
2007 14 452 963. 467 0. 159 0. 995 2018 11 252 2 813. 000 0. 965 1. 150 
2008 16 423 1 173. 071 0.215 1.023 2019 7 322 2 440. 667 0. 990 1. 129 
2009 19 346 1 488. 154 0. 280 1.058 2020 2 822 1 411. 000 0. 999 1. 050 
2010 25 734 2 144. 500 0. 368 1.110 2021 146 146. 000 1.000 0.721 


本 文 以 计算 出 的 DKDI 取 1 000 为 底 的 对 数 作为 
当年 数据 知识 扩散 指标 ,对 当年 数据 知识 扩散 与 数据 
累积 知识 扩散 指标 的 结果 进行 比较 和 分 析 , 见 图 6 
(a)。 可 以 看 出 ,2000 -2017 年 间 的 数据 知识 扩散 强 
度 波动 增长 ,而 由 于 数据 集 的 滞后 性 ,其 后 逐渐 回落 。 
计算 DPKD 和 DKDB 的 相关 系数 为 0.998 ,二 者 呈现 出 


高 度 相 关 性 。DKDI 和 DKDB 的 年 度 增 长 趋势 对 比 见 
图 6(b) ,由 图 6(pb) 可 以 看 出 二 者 几乎 保持 着 一 致 的 
变化 趋势 , 随 着 序列 比 对 、 基 因 识 别 等 生物 医学 领域 的 
研究 不 断 深 入 ,论文 对 科学 数据 集 的 使 用 强度 也 随 之 
加 大 ,科研 人 员 对 数据 的 依赖 性 日 益 增 加 。 
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数据 知识 扩散 强度 与 广度 
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一 重 一 Log1000DKDB( 当 年 数据 知识 扩散 广度 ) 
(b) 


6 ”GEO 数据 集 的 数据 知识 扩散 强度 趋势 及 与 扩散 广度 趋势 对 比 


3.4 数据 知识 扩散 速度 

数据 知识 扩散 速度 可 以 反映 出 研究 人 员 对 数据 的 
关注 和 利用 效率 ,对 于 扩散 目标 来 说 ,消耗 的 时 间 越 
短 s 扩 散 速 度 越 快 。 而 更 快 的 传播 和 利用 速度 可 以 有 
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9 由 图 7 可 知 ,数据 在 初期 得 到 了 广泛 的 关注 和 利 
用 5 而 到 了 2003 年 以 后 ,由 于 基因 测序 技术 的 进步 以 
及 成 本 的 不 断 降低 ,科研 人 员 开 始 通过 自身 实验 来 获 
取 数据 ,数据 知识 扩散 速度 开始 放 缓 。 直 到 2014 年 
后 , 随 着 数据 库 内 容 的 不 断 完善 ,科研 人 员 又 逐步 开始 
通过 重用 他 人 数据 的 形式 进行 研究 ,重用 数据 可 以 大 
大 减少 科研 成 本 ,加快 科研 进度 。 

3.5 ”数据 知识 扩散 延 时 
数据 知识 扩散 延 时 从 数据 初次 扩散 耗 时 的 角度 ， 
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效 减少 知识 老化 寻 致 的 学 术 价值 损失 ,有 效 降 低 知 识 
创新 成 本 ,从 而 加 快 科技 发 展 速度 。 数 据 知 识 扩散 速 
度 最 低 值 为 2005 年 的 0. 006 ,最 高 为 2021 年 的 0.515 ， 
年 平均 扩散 速度 为 0.040 ,如 图 7 所 示 : 
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图 7 GEO 数据 集 的 数据 知识 扩散 速度 趋势 


即 从 重用 数据 到 文献 发 表 的 周期 ,对 数据 知识 扩散 的 
速度 进行 揭示 。 经 过 计算 发 现 ,GEO 数据 集 的 最 大 扩 
散 延 时 为 20 年 ,最 小 扩散 延 时 为 0 年 ,平均 扩散 延 时 
约 为 3.8 年 。 如 末 以 数据 集 公开 年 份 与 数据 集 最 初 提 
交 年 份 的 差 值 ,作为 数据 贡献 者 从 数据 处 理 到 论文 发 
表 的 延 时 , 则 可 以 得 到 原始 数据 处 理 到 文献 发 表 的 平 
均 周 期 为 4.3 年 左右 ,重用 数据 可 以 将 科研 效率 平均 
提升 13.16%。 二 者 的 分 布 如 图 8 所 示 : 


重用 数据 文献 发 表 周期 分 布 
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图 8 重用 数据 文献 发 表 周期 与 原始 数据 文献 发 表 周期 分 布 
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以 基因 表达 数据 集 为 例 []]. 图 书 情报 工作 ,2022,66(12) :82 -91. 


由 图 8 可 以 看 出 ,生物 医学 领域 的 数据 知识 扩散 
延 时 为 1 的 占 比 最 高 , 约 为 26.08% ,说 明 有 超过 1/4 
的 数据 在 公开 一 年 后 就 被 其 他 发 表 的 文献 所 重用 。 而 
原始 数据 文献 发 表 周 期 为 2 的 占 比 最 高 , 约 为 
17.99% ,说 明 从 原始 数据 处 理 到 文献 发 表 的 周期 数量 
最 多 的 是 2 年 。 从 数据 知识 扩散 延 时 平均 数 4 以 内 的 
总 体 情况 来 看 ,重用 数据 的 文献 发 表 周 期 在 0 -4 年 的 
占 比 为 57% ,高 于 原始 数据 文献 发 表 周期 在 0 -4 年 的 
占 比 50. 58% ,再 次 印证 了 重用 数据 可 以 一 定 程度 上 
缩短 文献 发 表 周 期 ,加 快 知识 扩散 速度 。 


4 讨论 


本 研究 以 GEO 数据 库 中 的 科学 数据 集 和 PMC 数 
据 闯 的 全 文 数据 为 研究 对 象 ,分 析 了 生物 医学 领域 的 
基 加 表达 数据 集 共享 及 重用 的 情况 ,并 针对 科学 数据 
集 的 特点 提出 了 数据 知识 扩散 测度 指标 ,最 后 利用 共 
学 利 重用 数据 信息 研究 了 科学 数据 集 的 知识 扩散 特 
征 。 :研究 结果 不 仅 探析 到 科学 数据 集 在 学 科研 究 过 程 
9 泡 生 的 实际 价值 ,也 发 现 了 数据 集 的 重用 行为 可 以 
提高 科研 效率 、 加 速 科研 进程 ,通过 定量 分 析 证 实 了 科 
党 魏 据 集 在 生物 医学 领域 研究 中 的 重要 地 位 和 作用 ， 
得 到 的 具体 结论 如 下 : 

(1) GEO 数据 库 中 被 重用 较 多 的 数据 集 集 中 在 
2068 - 2017 年 期 间 ,这 与 近 10 年 来 数据 科学 由 知识 范 
式 寺 数 据 范式 的 数据 科学 的 发 展 转变 历程 基本 吻合 。 
此 歼 , 由 于 数据 重用 存在 着 一 定 的 滞后 性 ,被 重用 的 数 
据 饮 数 量 在 时 间 上 旦 持续 增长 又 逐步 下 降 的 趋势 ,这 
与 数据 知识 扩散 延 时 约 为 4 年 的 结论 相符 合 ,体现 出 
较 明显 的 规律 性 。 

(2)2001 - 2021 年 GEO 数据 集 的 当年 数据 知识 
扩散 广度 和 当年 数据 知识 扩散 强度 都 保持 着 波动 增 
长 ,又 在 近 几 年 有 所 下 降 的 态势 。 从 累积 数据 知识 扩 
散 广度 和 累积 数据 知识 扩散 强度 来 看 ,二 者 都 呈现 出 
S 曲线 形态 ,符合 科学 数据 集 公开 和 重用 具有 一 定时 
间 灌 后 性 的 特点 。 总 体 来 看 ,无 论 从 数据 集 在 短期 还 
是 长 期 产生 的 知识 价值 方面 ,数据 集 对 于 生物 医学 领 
域 科研 产生 的 影响 力 都 日 渐 增长 ,科研 人 员 在 研究 中 
使 用 的 数据 集 数量 也 在 不 断 增 多 ,体现 了 生物 医学 领 
域 由 数据 驱动 科研 的 学 科 特 点 。 

(3) 从 GEO 数据 集 的 数据 知识 扩散 速度 角度 来 
看 ,2001 -2021 年 GEO 数据 集 的 数据 知识 扩散 经 历 了 


波动 平稳 再 到 提速 的 3 个 主要 阶段 。 初 期 由 于 数据 
共享 这 一 新 的 科研 方式 出 现 并 且 数量 较 少 ,数据 集 快 
速 得 到 了 大 量 关 注 和 使 用 。 而 到 了 2003 年 以 后 , 随 着 
测序 成 本 的 不 断 降 低 , 科 人 研 人 员 更 倾向 于 通过 自身 实 
验 产生 并 共享 数据 ,数据 知识 扩散 速度 开始 且 呈 平稳 
发 展 态势 。 随 着 数据 库 的 不 断 完善 以 及 数据 集 的 不 断 
积累 ,科研 人 员 又 重新 开始 关注 并 重用 数据 集 , 尤 其 是 
2014 年 后 ,数据 知识 扩散 速度 开始 呈现 指数 级 增长 

(4) 由 于 我 国 在 科学 数据 共享 方面 起 步 较 晚 , 初 
期 共享 数据 集 较 多 的 机 构 大 多 集中 在 与 国外 科 人 研 合作 
较 多 的 香港 等 地 区 。 随 着 国家 和 科研 机 构 对 科研 数据 
管理 与 共享 的 重视 程度 不 断 增强 ,以 及 《科学 数据 管理 
办 法 》《 中 国 科 学 院 科学 数据 管理 与 开放 共 至 办 法 》 等 
政策 的 不 断 出 台 ,我 国 在 科学 数据 领域 的 地 位 不 断 提 
高 ,这 些 工 作为 我 国 建设 成 为 数据 强国 葛 定 了 坚实 的 
基础 和 保障 。 


5 总 结 


本 人 研究 将 以 生物 医学 领域 的 基因 表达 数据 集 作为 
研究 对 象 ,将 科学 数据 集 这 一 新 的 知识 实体 纳入 知识 
扩散 的 研究 范畴 ,提出 适用 于 科学 数据 集 知 识 扩散 研 
究 的 测度 指标 ,从 而 揭示 科学 数据 集 在 参与 科研 过 程 
中 的 特点 和 规律 。 同 前 人 的 研究 相 比 ,本 研究 拓展 了 
知识 扩散 的 研究 理论 和 方法 ,可 以 为 科学 数据 管理 和 
服务 工作 提供 参考 依据 。 首 先 , 要 进一步 推进 科学 数 
据 管 理 和 共享 政策 的 不 断 完 善 ,提高 我 国 科研 工作 者 
的 数据 共享 和 重用 意识 。 随 着 我 国 科学 数据 管理 政策 
的 陆续 出 台 和 科研 机 构 对 于 科学 数据 重视 程度 的 增 
强 ,我 国 在 国际 科学 数据 舞台 上 也 逐渐 成 为 主角 ,要 继 
续 保 持 这 种 良好 发 展 态势 ,不 断 夯 实 我 国 作 为 科学 数 
据 强 国 的 主导 地 位 ;其 次 ,我 国 科学 数据 库 建 设 要 更 加 
强调 专业 性 、 及 时 性 和 开放 性 ,专业 性 的 数据 库 具备 更 
强 的 吸引 力 ,不 但 要 将 宝贵 的 科学 数据 留 在 祖国 大 地 
上 ,更 要 吸引 全 球 的 数据 流入 和 汇聚 在 我 国 的 科学 数 
据 库 中 。 这 就 要 求 科 学 数据 库 建 设 要 聘请 专业 运 维 团 
队 及 同行 评议 专家 进行 及 时 更 新 维护 ,并且 通过 多 渠 
道 资金 优化 配置 保证 数据 的 免费 和 开放 共享 ;最 后 ,高 
校 和 图 书馆 要 加 强 科 学 数据 人 才 培 养 ,专业 型 人 才 渗 
透 到 科学 数据 集 产 生 .共享 .重用 等 各 个 环节 ,加 快 科 
学 数据 集 知识 扩散 过 程 ,让 其 在 科研 过 程 中 发 挥 更 大 
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的 作用 ,满足 飞速 发 展 的 科学 数据 管理 和 服务 需求 。 
当然 ,本文 研究 也 存在 着 一 些 不 足 , 吸 竺 进一步 研 
究 。 首 先 , 仅 以 生物 医学 领域 基因 表达 数据 集 和 CEO 
数据 库 为 例 ,学 科 和 样本 数据 都 还 有 待 进一步 丰富 和 
加 强 ; 其 次 ,未 深入 分 析 发 布 者 发布 机 构 ,原文 影响 
子 、 国 家 地 区 等 因素 与 数据 集 影 响 力 和 扩散 特征 之 间 
的 关联 性 ;最 后 ,还 可 以 从 更 多 样 化 的 视角 探索 科学 数 
据 集 的 知识 扩散 特征 ,如 基于 网 络 结构 的 数据 集 扩 散 
特征 、 基 于 合作 关系 的 数据 集 扩散 特征 等 。 
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Research on the Characteristics of Knowledge Diffusion in Scientific Datasets 


一 一 Taking the Gene Expression Dataset as an Example 
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Abstract: | Purpose/ Significance | By studying the characteristics and laws of knowledge diffusion of scientific 


datasets, this paper explores the practical role of scientific datasets in the development of discipline fields, so as to 


provide references for scientific and technological evaluation and management policy-making of scientific datasets. 


| Method/ Process | Taking the datasets of GEO database and the full-text data of reused dataset in PubMed Central 


Database as the analysis objects, this paper analyzed the knowledge diffusion characteristics of scientific datasets by 


using content analysis method combined with knowledge diffusion indicators such as diffusion breadth, diffusion in- 


Tensity and diffusion speed. | Result/ Conclusion | The results show that the breadth and intensity of knowledge dif- 


Vigion of scientific datasets are increasing day by day. Reusing data can accelerate the speed of knowledge diffusion, 


aa Wd China’s position in the field of global scientific data is improving. 
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《知识 管理 论坛 投稿 须知 


《知识 管理 论坛 >》(CN11 -6036/C ,ISSN 2095 -5472) 是 由 中 国 科学 院 文献 情报 中 心 主办 的 网 络 开 放 获 取 学 术 期 刊 ,2017 年 人 选 国际 著名 的 开 
放 获取 期 刊 名 录 (DOAJ) 。《 知 识 管理 论坛 > 致力 于 推动 知识 时 代 知 识 的 创造 组 织 和 有 效 利用 ,促进 知识 管理 研究 成 果 的 快速 ,广泛 和 有 效 传播 。 


#， 报 道 范 围 

稿件 的 主题 应 与 知识 相关 ,探讨 有 关 知 识 管理 、 知 识 服务 .知识 
创新 车 相关 问题 。 稿 件 可 侧重 于 理论 ,也 可 侧重 于 应 用 、 技 术 方法 、 
模 末 最 佳 实践 等 。 

23， 学 术 道德 要 求 

“投稿 必须 为 未 公开 发 表 的 原创 性 研究 论文 , 选 题 与 内 容 具 有 一 
定 的 创新 性 。 引 用 他 人 成 果 , 请 务必 按 《著作 权 法 》 有 关 规 定 指明 原 
作者 姓名 、 作 品名 称 及 其 来 源 , 在 文 后 参考 文献 中 列 出 。 

本 刊 使 用 CNKI 科技 期 刊 学 术 不 端 文 献 检测 系统 (AMLC ) 对 来 
稿 进行 论文 相似 度 检测 ,如果 稿件 存在 学 术 不 端 行为 ,一 经 发 现 概 不 
录用 ; 若 论文 在 发 表 后 被 发 现 有 学 术 不 端 行为 ,我 们 会 对 其 进行 撤 稿 
处 理 ,涉嫌 学 术 不 端 行为 的 稿件 作者 将 进入 我 刊 黑 名 单 。 

3. 署名 与 版 权 问题 

作者 应 该 是 论文 的 创意 者 、 实 践 者 或 撰 稿 者 , 即 论文 的 责任 者 与 
著作 权 拥 有 者 。 署 名 作者 的 人 数 和 顺序 由 作者 自 定 ,作者 文责 自负 。 
所 有 作者 要 对 所 提交 的 稿件 进行 最 后 确认 。 

4. 写作 规范 

本 刊 严格 执行 国家 有 关 标 准 和 规范 ,投稿 请 按 现 行 的 国家 标准 
及 规范 撰写 ;单位 采用 国际 单位 制 ,用 相应 的 规范 符号 表示 。 

5. 评审 程序 

执行 严格 的 三 审 制 , 即 初审 ,复审 ( 双 言 同行 评议 ) ,终审 。 

6. 发 布 渠道 与 形式 

稿件 主要 通过 网 络 发 表 ,如 我 刊 的 网 站 (www. kmf. ac. cn ) 和 我 刊 授权 
的 数据 库 。 


本 刊 已 授权 数据 库 有 中 国 期 刊 全 文 数据 库 (CNKI) 、 龙 源 期 刊 网 、 
超星 期 刊 域 出 版 平台 等 ,作者 稿件 一 经 录用 ,将 同时 被 该 数据 库 收录 ， 
如 作者 不 同意 收录 ,请 在 投稿 时 提出 声明 。 


7. 费用 

2022 年 2 月 1 日 之 后 的 投稿 ,经 审理 录用 后 收取 论文 处 理 费 
1000 元 /篇 。 

8. 关于 开放 获取 


本 刊 发 表 的 所 有 研究 论文 ,其 出 版 版 本 的 PDF 均 须 通过 本 刊 网 
站 (www. kmf. ac. cn) 在 发 表 后 立即 实施 开放 获取 , 敦 励 自 存 储 , 基 本 
许可 方式 为 CC - BY( 署 名 ) 。 详 情 参阅 期 刊 首 页 OA 声明 。 

9. 选 题 范围 

互联 网 与 知识 管理 .大 数据 与 知识 计算 、 数 据 监护 与 知识 组 织 、 
实践 社区 与 知识 运营 、 内 容 管 理 与 知识 共享 数据 关联 与 知识 图 谱 、 
开放 创新 与 知识 创造 ,数据 挖掘 与 知识 发 现 。 

10. 关于 数据 集 出 版 

为 方便 学 术 论 文 数据 的 管理 共享、 存储 和 重用 ,近日 我 们 通过 
中 国 科 学 院 网 络 中 心 的 ScienceDB 平台 (www. sciencedb. cn ) 开通 数 
据 出 版 服务 ,该 平台 文 持 任 意 格 式 的 数据 集 提交 ,欢迎 各 位 作者 在 投 
稿 的 同时 提交 与 论文 相关 的 数据 集 (稿件 提交 的 第 5 步 即 进入 提交 
数据 集 流程 ) 。 

11. 投稿 途径 

本 刊 唯一 投稿 途径 :登录 www. kmf. ac. cn, 点 击 作者 投稿 系统 ， 
根据 提示 进行 操作 即 可 。 
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